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fi 要 : 在 社交 网 络 上 ， 用 户 常 创 造 一 些 变 体 词 来 替代 部 分 实体 名 词 ， 将 这 些 变 体 词 还 原 为 原 目标 词 是 自然 语言 处 理 

中 的 一 项 重要 工作 。 针 对 现 有 变 体 词 还 原 方法 准确 率 不 够 高 的 问题 ， 提 出 了 基于 有 效 上 下 文 信息 的 变 体 词 还 原 方 法 。 

该 方法 利用 点 互信 息 抽 取出 变 体 词 和 候选 目标 词 的 有 效 上 下 文 信息 ， 并 将 其 融合 进 自 编 码 器 模型 中 ， 获 得 变 体 词 和 候 

选 目 标 词 更 准确 的 编码 ， 并 依据 此 计算 相似 度 进 行 候选 目标 词 排序 ， 更 准确 的 实现 了 变 体 词 还原 任 务 。 实 验 表明 ， 该 
方法 较 当 前 主流 的 几 种 方法 相 比 效果 有 显著 提升 ， 提 高 了 变 体 词 还 原 的 准确 率 。 
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Morph resolution based on effective context information 


You Jirong! ?, Sha Ying! ?, Liang Qi} ?, Wang Bin! ? 
(1. Institute of Information Engineering, Chinese Academy of Sciences, Beijing 100093, China; 2. School of Cyber Security, 
University of Chinese Academy of Sciences, Beijing 100049, China) 


Abstract: In social networks, people often creates morphs to replace some entity names. How to resolve these morphs to their 
real target entities is a very important task for natural language processing. In order to overcome the shortcomings that existing 
methods cannot resolve morphs accurately, this paper proposed a morph resolution method based on effective context 
information. This method extracted the effective context information of morphs and target candidates, and integrated the 
effective context information into autoencoders in order to get more accurate embedding of morphs and their target candidates. 
This method then calculate the similarity between morphs and target candidates based on the accurate embeddings, and ranked 
the target candidates according to the similarity. The experiments show that this approach significant outperforms the state-of- 
the-art methods and improves the accuracy of morph resolution. 


Key words: morph; morph resolution; autoencoder; effective context information; word embedding; neural network 


0 引言 勇士 创造 了 属于 自己 的 时 代 潮 流 ， 大 势 所 趋 连 规 
则 也 跟着 改变 ， 其 他 球 队 也 跟着 效仿 。 斋 皇 自 带 的 体 
变 体 词 在 互联 网 中 广泛 存在 。 在 互联 网 上 ， 人 们 常常 把 一 系 ， 跟 潮流 不 同 ， 他 也 不 愿 苟同 。 小 球 时 代 其 实 是 


术 题 ， 没 了 血性 ， 没 了 对 抗 ， 没 意思 了 。 


些 规 范 的 专 有 名 词 ， 如 人 名 地 名 ， 通 过 各 种 方式 改造 ， 创 造 一 
些 不 规范 的 词汇 来 蔡 代 原来 的 词 ， 来 规避 审查 、 或 表达 讽刺 、 
娱乐 等 情感 ， 这 就 是 变 体 词 现 象 。 这 些 创造 出 来 的 新 词 就 叫做 
变 体 词 ， 与 之 对 应 的 是 原来 的 词 ， 即 目标 词 。 例 如 图 1 中 的 这 
条 微 博 :“ 勇 士 创造 了 属于 自己 的 时 代 潮 流 , 大 势 所 趋 连 规则 也 
跟着 改变 ， 其 他 球 队 也 跟着 效仿 。 詹 皇 自 带 的 体系 ， 跟 潮流 不 
同 ， 他 也 不 愿 苟同 。 小 球 时 代 其 实 是 算术 题 ， 没 了 血性 ， 没 了 
对 抗 ， 没 意思 了 。” 这 条 微 博 中 ,“ 詹 皇 ” 就 是 一 个 变 体 词 ， 它 
前 代 的 是 球员 “和 詹姆斯 ”“ 詹 姆 斯 ”就 是 它 的 原 目 标 词 。 


PS 


1 变 体 词 在 微 博 中 的 使 用 


对 变 体 词 的 研究 在 自然 语言 处 理 中 具有 实际 的 意义 。 自 然 
语言 处 理 的 基础 就 是 正确 的 对 词语 的 分 析 和 理解 ， 传 统 分 析 方 
法 有 赖 于 人 工整 理 的 词典 、 词 林 等 资源 , 但 是 在 面 对 语 言 灵活 、 
变化 快速 的 社交 媒体 语言 时 ， 传 统 方法 会 遇 到 很 多 困难 。 互 联 
网 创造 新 词汇 的 速度 很 快 ， 变 体 词 就 是 其 中 一 类 ， 它 们 通常 不 
会 出 现在 词典 中 ， 也 缺乏 释义 和 理解 ， 在 词法 分 析 时 会 产生 干 
扰 。 如 果 能 够 将 变 体 词 都 还 原 成 它们 的 目标 词 ， 能 够 增加 词法 
分 析 的 准确 性 ， 为 下 游 其 他 的 自然 语言 处 理 任务 提供 支持 。 
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录用 稿 

为 了 还 原 变 体 词 ， 目 前 有 几 类 主流 的 解决 的 思路 。 一 类 是 
基于 建立 规则 实现 , 包括 语音 替换 、 汉 字 拆 分 等 等 四 启 B。 这 类 
方法 的 优点 是 简单 直接 , 但 是 变 体 词 变化 方式 繁多 且 不 断 变化 ， 
规则 的 适用 性 很 有 限 。 另 一 类 是 基于 统计 和 规则 的 方法 ， 将 统 


计 的 方法 与 规则 相 结合 ， 通 过 提取 一 些 
法 进行 变 体 词 还 原 驻 9。 这 类 方法 相 比 直接 建立 规则 要 更 加 灵活 ， 
但 是 统计 学 习 的 方法 是 重度 依赖 特征 的 ， 仍 需要 大 量 的 特征 工 
程 。 此 外 ， 还 有 一 种 是 基于 语义 表示 的 方法 。 


是 建立 在 分 布 
体 词 进行 建 模 
建立 较为 复杂 


寺 征 使 用 统计 学 习 的 方 


ChinaX 


iv 合作 期 升 


游 绩 榕 ， 等 : 基于 有 效 上 下 文 信息 的 变 体 词 还 原 方法 


词 ， 然 后 再 将 它们 还 原 为 


标 词 。 还 原 的 过 程 利用 


了 


经 语言 


模型 和 词 代 入 方法 ， 将 文本 中 的 词 项 ， 包 括 变 体 词 和 
算 它 们 的 相似 度 ， 再 按照 候选 词 
与 变 体 词 的 相似 度 进 行 排序 来 得 到 变 体 词 还 原 的 结果 。 


都 编码 为 词 向 量 


=a) 


Hiruncharoenvate 等 人 00 通 


然后 比较 计 


语义 表示 的 方法 


段 说 中 上 的 ， 利 


分 布 假说 可 以 通过 上 下 文 对 变 


， 从 而 实 
的 模型 ， 


HREF 


本 文 沿用 


了 语义 表示 的 


基于 语义 表示 进行 变 体 词 还 
上 下 文 词 项 ， 然 后 直接 套 ) 
的 筛选 。 本 文 提出 一 种 基于 有 效 上 
， 通 过 计算 上 下 文 与 词 项 


信息 进行 有 效 
体 词 还 原 方法 
效 上 下 文 信息 


岗 变 体 词 的 还 原 。 


思路 来 解决 变 体 词 还 原 问题 。 目 前 
原 的 研究 都 只 是 简 


语义 表示 的 方法 需要 
I 比较 好 的 效果 。 


单 的 利用 临 


= 
Ei 
= 


J) 


] 的 词 向 量 模 型 ， 缺 乏 对 上 下 文 


下 文 信息 的 变 


闻 的 互信 息 来 筛选 出 有 


， 然 后 使 用 


文 信息 进行 融 


自 编码 器 模型 将 词 项 和 它 的 有 效 上 下 
合 ， 得 到 联合 编码 。 得 到 
体 词 与 其 他 词 的 相似 度 ， 根 据 相似 度 排 


的 编码 即 可 用 于 计算 变 
序 即 可 实现 变 体 词 还 原 


的 几 种 变 体 词 


还 原 方法 。 


的 任务 。 本 文 对 此 方法 进行 了 实验 验证 ， 


对 比 了 当前 效果 最 好 


实验 结果 表明 本 文 的 方法 是 有 效 的 ， 


相 比 当前 最 好 


的 方法 精确 率 得 至 


本 文 的 主要 贡献 有 : 


司 还 原 方法 ， 


a) 提出 了 者 
了 效 提升 了 变 体 词 还 原 的 准确 性 ; b) 利 


| 有 效 提升 。 


于 有 效 上 下 文 信 息 的 变 体 
用 词语 和 


上 下 文 词 项 间 
文 的 


的 互信 息 来 得 选 有 效 上 下 文 信息 ; c) 利用 联合 上 


Ml 


1 ”相关 工作 
关于 变 体 词 的 研究 最 早出 现在 一 些 关于 不 规范 文本 或 网 络 


语言 的 规范 化 
聊天 中 


的 工作 中 。 例 


自 编码 器 对 词语 及 其 有 效 上 下 文 信息 进行 联合 编码 ， 使 
之 更 好 的 表示 词语 之 间 相 似 性 。 


如 WongD 的 工作 中 研究 了 中 文 网 络 
语音 变化 产生 的 字 词 蔡 换 现 象 ， 例 如 将 “我 ”替换 为 


“ 偶 ” 这 与 变 体 词 现象 很 类 似 。 早 期 的 不 规范 文本 规范 化 主要 


使 用 基于 


规则 的 方法 ,例如 Wong 


] Xiap SoodD] 等 人 的 工作 。 


后 来 一 些 研究 提出 可 以 结合 统计 和 规则 进行 还 原 ， 如 文献 [4~6] 


的 工作 。 典 型 的 方法 如 Wang!“ TE, Wang 基于 拼 
E， 建 立 一 个 概率 模型 ，] 


蔡 换 等 典 


型 特 


fl 


练 实现 不 规范 文本 的 还 原 。 


在 Huang 


Huang 等 人 图 研究 了 
征 ， $ 


特征 和 社交 特 


等 人 四 的 研究 中 ， 


体 词 的 还 原 ， 


个 端 到 端的 变 体 词 解码 方案 ， 


还 原 两 个 任务 


变 体 词 的 基本 特征 ， 
R 据 这 些 特 征 设计 了 
验证 了 效果 。 在 这 之 后 ，Zhang 等 人 四 提出 了 一 


音 、 缩 写 、 
] 概 率 模型 进行 监督 训 


变 体 词 的 概念 首次 明确 出 现 。 
包括 表面 特征 、 语 义 
简单 的 分 类 模型 进行 变 


已 同时 进行 变 体 词 发 现 和 变 体 词 


， 先 按照 一 定 标 ; 


村 在 大 量 语 料 中 找到 其 中 的 变 体 


通过 使 | 


标 词 ， 


除 此 之 外 ， 还 有 一 些 关 于 变 体 词 自动 生成 的 研究 。 
前 过 新 浪 微 博 的 语 料 研究 了 用 户 如 何 

义 的 变 体 词 来 规避 审查 ， 并 尝试 使 用 非 确 

本 词 。Zhang 等 人 0 更 进一步 的 研究 


定性 算法 生成 大 量 新 的 变 


同音 异形 站 
E 


了 变 体 词 的 特征 ， 


自动 


度 来 解决 变 体 词 还 原 的 问题 。 


模式 ， 


包括 拼音 、 拆 字 、 


生成 变 体 词 的 样本 ， 从 另 一 个 角 


研究 总 结 了 八大 类 变 体 词 产生 的 


了 昵称、 翻译 等 等 模式 。Sha AME 


出 了 基于 字 词 联合 的 变 体 词 还 原 方法 ， 在 将 词语 进行 编码 的 同 


时 还 对 字 进 行 了 编码 ， 联 合 两 种 编码 解 避 


A 变 体 词 还 原 问 题 。 


本 文 使 
督 的 神经 网 络 ， 


了 联合 上 下 文 的 


编码 器 。 


编码 器 是 一 种 无 监 


它 能 够 对 输入 向 


量 进行 编码 ， 然 后 进行 解码 重 


建 ， 从 而 获取 输入 向 量 有 | 
许多 变种 。 联 合 上 下 文 的 自 
自 编码 器 中 ， 得 到 它 


一 起 输入 


的 


it 4 
BP AIE 


融入 编码 之 中 。 


自 编码 器 有 


编码 器 03 将 词语 的 上 下 文 连同 词语 
门 的 联合 编码 。 


2 ”基于 有 效 上 下 文 信息 的 变 体 词 还 原 方法 


在 阐述 本 文 的 变 体 词 还 原 方法 
还 原 问题 ; 变 
体 词 可 能 的 候选 
档 集合 D={d,d…,dw} 与 变 体 词 集合 W =m 


找 出 每 个 m 可 能 


词 


标 词 列表 Pp: 


={f,6,..., i} ? 


体 词 还 原 指 的 


T, AICHE 


BNL FE MAR 


是 给 定 一 组 变 体 词 ， 找 到 每 个 变 


标 词 列 表 ， 


其 中 


m 真正 的 目标 词 ， 即 完成 了 
以 图 1 中 的 例子 为 例 , 变 体 词 为 “ 舱 皇 
微 博 中 找到 这 个 变 体 词 的 候选 


根据 可 能 性 


的 候选 词 ， 并 进行 排序 ， 得 到 


体 词 的 还 原 。 


进行 排序 。 给 定 文 
,71D 7 在 D 中 
m 对 应 的 候选 


排名 越前 的 候选 目标 词 越 可 能 是 
as 


WIR. wW “SBS” BIEN 


标 词 ， 然 后 进行 排序 得 到 


” 本 文 首 先 需要 在 


标 


bail “et 


斯 ”应 该 在 


标 词 列 


表 中 越 靠 前 越 好 。 


本 文 提出 的 基于 
基于 语义 表示 的 算法 。 本 文 将 


TAE F 


文 信息 的 变 体 词 还 原 方法 是 一 种 


变 体 词 和 它 的 候选 


标 词 进行 编 


fg, A) 


编码 进行 排序 。 


与 其 


筛选 出 


让 


选 


有 效 上 
项 。 这 能 够 帮 有 


bri; 然后， 使 / 


他 方法 所 不 同 的 是 ， 本 文 的 算法 


文 信息 ， 而 


WAS SC BE UF AER 
整个 算法 大 致 分 为 四 个 过 程 。 如 图 
合 中 先进 行 初步 租 选 ， 
取出 这 些 词语 的 有 效 上 下 文 信息 ， 包 括 变 体 词 以 及 它们 的 候 


不 是 简单 的 使 ) 
到 与 变 体 词 含义 相同 的 目标 词 。 


临近 的 上 下 文 词 


2 所 示 ， 
找到 变 体 词 的 候选 


首先 ， 从 文档 
目标 词 列表 ; 其次， 


联合 有 效 上 下 文 信息 的 


自 编码 器 将 各 个 


词语 和 它们 的 有 效 上 


个 候选 


标 词 的 编码 的 相似 度 ， 


从 而 完成 变 体 词 还 原 的 任务 。 


文 信息 进行 联合 编码 ， 得 到 变 体 词 和 各 
标 词 的 编码 表示 ; 最后， 计算 变 体 词 的 编码 和 候选 
按照 相似 度 对 候选 


标 词 进行 排序 ， 
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候选 目标 词 及 其 
有 效 上 下 文 信息 


变 体 词 及 其 有 
效 上 下 文 信息 


a et ee ete | 


使 用 联合 上 下 文 的 | 
a 


计算 变 
选 目标 


候选 目标 词 
排序 结果 


2.1 ”候选 目标 词 的 初步 筛选 
变 体 词 还 原 的 第 一 步 是 候选 


两 条 标准 来 实现 。 


All} 


a) 利 用 时 间 共 现 性 筛选 。 统 计 表 明 ， 
常 都 会 同时 在 一 个 较 短 的 时 间 段 内 多 次 


标 词 的 初步 筛选 。 本 文 主要 


体 词 与 各 候 
词 的 相似 度 ; 


图 2 基于 有 效 上 下 文 信息 的 变 体 词 还 原 方法 的 流程 


变 体 词 与 其 目标 词 通 


出 现 02。 因 此 本 文 可 以 


的 时 间 段 里 的 词语 


分 析 变 体 词 出 现 的 时 间 ， 然 后 只 需要 在 附近 
中 寻找 目标 词 ， 即 可 减 小 候选 词 集合 大 4 
给 定 的 变 体 词 ， 


\。 有 具体 过 程 是 ， 对 于 


本 文 可 以 找到 含有 变 体 词 的 文档 (例如 微 博 )， 
根据 这 些 文档 的 发 布 时 间 可 以 设 定 一 个 时 间 窗 口 ， 


本 文 寻找 这 


个 时 间 窗 口内 的 文档 ， 在 这 些 文档 中 寻找 候选 目标 词 。 


b) 根 据 词 性 筛选 。 


由 于 变 体 词 所 指 代 的 往往 都 是 人 名 、 地 


名 和 组 织 名 等 专 有 名 词 ， 所 以 候选 目标 词 也 只 需要 在 专 有 名 词 
中 寻找 。 专 有 名 词 的 筛选 可 以 通过 词性 标注 和 命名 实体 识别 即 


可 得 到 ， 
等 ， 均 可 完成 这 个 任务 。 联 合 时 间 
候选 目标 词 。 


2.2 抽取 有 效 上 下 文 信息 
变 体 词 还 原 的 第 二 
上 下 文 信息 。 上 下 文 信 
j， 但 是 这 些 方法 
套用 词 嵌 入 模型 ， 
非 某 个 词语 
FH AM Ht Sie] 
的 进行 变 体 词 与 候选 词 之 间 的 相似 度 


Se 


而 没有 对 


许多 成 熟 的 工具 ， 包 括 NLPIRU、 
cot 


Stanford NER"! 
的 筛选 结果 即 可 得 到 


步 是 抽取 变 体 词 和 各 候选 目标 词 的 有 效 

息 在 各 种 基于 词 嵌 入 的 方法 中 被 广泛 使 
中 只 是 简 单 的 使 用 某 词语 
上 下 文 词 项 进行 筛选。 
者 所 有 的 上 下 文 词 项 都 与 它 有 密切 的 语义 联系 。 
考 有 较 强 语义 联系 的 上 下 文 词 项 可 以 帮助 本 文 更 好 
判断 。 


吾 临 近 的 上 下 文 词 项 
实际 上 ， 


而 


本 文 称 这 种 上 下 文 


词 项 构成 的 集合 有 词语 的 有 效 上 下 文 


ah. 


AST EFAA E FE I bast 


是 词语 与 上 下 文 词 项 


间 的 点 互信 息 (PMI)。 
系 ， 如 果 点 互信 | SR 那么 两 个 词 共 
越 大 ， 反 之 则 语义 联系 越 小 。 点 互信 息 自 


” 韦 德 ， 美 国 篮球 运动 员 


点 互信 息 描述 了 词语 之 间 
现 频 率 越 高 ， 语 义 联系 


的 共 现 关 


9 计算 公式 为 


游 绩 榕 ， 等 : 


P(x, y) 
p(X) Pp(Y) 


PMI(x; y) =log 


(1) 
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其 中 :<x 和 >? 是 指 代 两 个 词语 ， pO) 和 p(y) 分别 表 示 x 和 3 在 语 


料 中 出 现 的 概率 ， Pr) 为 * 和 > 在 语 

利用 点 互信 息 可 以 很 好 的 判断 词语 
联系 。 举 个 合子， 有“ 韦 德 ”“ 闪 电 合 ” 
词 项 ， 其 中 ,“ 韦 德 1” 


料 中 共 


是 变 体 词 “闪电 侠 ” 的 目标 词 ， 而 


现 的 概率 。 

与 其 上 下 文 词 项 的 语义 
和 “贝克 汉 姆 ”三 个 
网 


克 汉 姆 ?” 与 “闪电 侠 ”无 关 ， 不 是 它 的 目标 词 。 本 文 挑选 出 


三 个 它们 的 上 


ESC: “Bet”. “SI 


F”, “体育 ” 进行 比 


Bo Foo Bet". aa 
语义 联系 ， 与 “贝克 汉 姆 ” 语 
上 下 文 词 项 的 PMI 值 ， 可 以 看 出 
E 侠 ”、“ 韦 德 ”的 点 互信 息 都 比较 高 ， 
言 息 较 低 。 点 互信 息 可 以 很 好 的 表示 记 


fi” 均 与 “内 
义 联系 较 


“Beh”. “fa wes 


电 侠 ”、“ 韦 德 ” 有 较 强 
低 。 表 1 展示 了 不 同 的 
上 ”与 “内 
与 “贝克 汉 姆 ”的 点 互 
项 之 间 的 语义 联系 。 


此 外 可 以 发 现 ,“ 波 什 ”“ 人 詹姆斯 ”与 


3“ 内 电 侠 ”、 韦 德 ” 


的 点 互信 息 较 高 ， 与 “贝克 汉 姆 ”的 点 
区 分 性 ， 而 词 项 “体育 ”与 这 三 个 词 的 
分 性 较 低 。 因 此 本 文 可 以 看 出 通过 点 互 
文 词 项 相对 于 其 他 的 词 项 ， 能 够 更 好 的 
语 ， 找 到 意义 相同 的 词语 。 这 个 性 质 
变 体 词 真正 的 目标 词 。 


aft 息 较 低 ， 有 较 强 的 
RE 息 相 差 不 大 ， 区 
信息 筛选 出 的 有 效 上 下 
区 分 出 意义 不 同 的 词 


能 够 很 好 的 帮助 本 文 找到 


表 1 有 效 上 下 文 词 项 与 其 他 词 项 的 对 比 


有 效 上 下 文 词 项 其 他 词 项 
PMI 波 什 詹姆斯 体育 
闪电 侠 3.12 2.46 0.12 
韦 德 9.79 9.27 0.37 
贝克 汉 姆 0.34 0.63 0.49 
本 文 使 用 点 互信 息 上 下 文 过 滤器 对 词 项 的 上 下 文 进行 过 滤 
来 生成 词 项 的 有 效 上 下 文 信息 。 对 于 词 项 w ， 先 在 全 局 范围 内 


取 窗口 
这 些 词 项 显然 不 会 是 有 效 上 下 文 词 项 。 


wd 内 的 词 项 。 注 意 到 先 去 掉 助 词 、 介 词 等 类 型 的 词 了 


集合 C={6,6,…,dq} ,计算 每 个 词 项 6 与 w 


= 


得 到 的 上 下 文 词 项 形 
的 点 互信 息 PMI(w,c;) ; 


然后 , 取 集 合 中 最 大 的 前 K 个 ,作为 有 效 上 下 文 词 项 集合 FC, , 


从 而 得 到 有 效 上 下 文 信息 。 
2.3 ”对 变 体 词 和 候选 目标 词 进行 编码 
在 抽取 有 效 上 下 文 信息 之 后 ， 需 要 


融合 词语 和 它 的 有 效 上 


F 文 信息 特征 ， 得 到 一 个 联合 9 
的 自 编码 器 来 进行 编码 。 图 
程 。 联 合 有 效 上 下 文 信息 的 


3 展示 J 


编码 。 使 用 
自 编 码 器 的 结构 和 编码 流 
自 编 码 器 也 是 


凑合 有 效 上 下 文 信息 


aa 


是 由 多 个 基本 自 编码 器 


构成 。 图 3(a) 为 基本 自 编码 器 结构 。 自 


编码 器 的 输入 < 经 过 编 


码 后 得 到 编码 表示 h ， 然 后 再 


2, BU 
h=g(Wx+b) (2) 
t= g(Wh+b') (3) 


其 中 式 (2) 是 
人 码 过 程 WeR” 和 beR" 为 编码 器 的 学 习 
为 解码 器 的 学 习 参 数 ，s 为 激活 函数 。 

维度 和 编码 之 后 的 维度 , 通常 4'<d ,以 


进行 解码 得 到 输入 x 的 精确 重建 


编码 器 的 编码 过 程 ， 式 (3) 是 


编码 器 的 解 
BA, W'eR™ FI b'eR’ 
4 和 2 分别 表示 输入 的 
达到 压缩 和 降 维 的 目的 。 


自 编码 器 的 优化 目标 是 使 得 x* 和 的 差 


”贝克 汉 姆 ， 英 国足 球 运动 员 


异 尽量 的 小 ， 这 样 编码 


201804.02159v1 


chinaXiv 


录用 稿 


KIR h 就 可 以 准确 
天 化 目标 ， 即 
wx- A 
优化 目标 为 


效 表示 x 。 通 常会 使 用 平方 损失 


函数 作为 


min 10"), @={W,W',b,b'} (5) 


xi) RE RE 
a 


cx 的 重建 结果 ex 
[ | 


+ Wi, bly | ee 
i ae Vk „b ck 
隐 层 编码 hg KL 
l Ssa Vk 


Wiebke | ~ 


[ == 二 J 
w 的 有 效 上 下 文 信息 


输入 词 项 w 


(a) 基本 自 编码 器 。 (b) 联合 有 效 上 下 文 信息 的 自 编码 器 
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游 绩 榕 ， 等 : a SOKA EEA 方法 


loss(x,c,) = |x- af + Alle, -é, | (9) 
其 中 4e[0,1] 是 调节 上 下 文 信息 在 编码 中 影响 的 权 值 。 则 优化 
目标 为 


min > 1oss(Cx ,cf )， 
© 
i=l 


i ph 10 
O=(W, We ViVi dp Dy Dit (10) 
k €1,2,...,depth 


根据 优化 目标 ， 利 用 神经 网 络 通 用 的 训练 方法 如 随即 梯度 
下 降 法 等 ， 可 以 对 联合 有 效 上 下 文 信息 的 自 编 码 器 进行 训练 。 
自 编码 器 是 个 无 监督 的 模型 ， 因 此 只 需要 将 大 量 语 料 中 的 词 项 
作为 样本 依次 输入 模型 中 ， 即 可 完成 训练 。 该 自 编码 器 的 输出 
为 编码 阶段 最 后 一 个 隐 层 的 编码 表示 pw o 居 合 编码 ， 
融合 了 输入 词 项 和 它 的 有 效 上 下 文 信息 的 特征 ， 可 以 更 好 的 表 
示 词 项 之 间 含 义 的 相似 度 ， 帮 助 本 文 更 准确 的 找到 变 体 词 真正 
的 目标 词 。 
2.4 ”对 候选 目标 词 进行 排序 
得 到 变 体 词 和 候选 目标 词 的 编码 表示 之 后 ， 就 可 以 对 候选 
目标 词 进行 排序 。 自 编码 器 将 词语 映射 到 一 个 向 量 空间 中 ， 用 
向 量 的 余弦 相似 度 大 小 来 判断 词语 的 相似 性 。 相 似 度 越 大 ， 词 
语 越 相似 。 对 于 每 一 个 变 体 词 由 ， 计 算 它 的 每 个 候选 目标 词 , 
与 它 的 余弦 相似 度 ， 然 后 按照 相似 度 排序 ， 即 可 得 到 mi 候选 目 


om 是 个 


In} 


图 3 联合 有 效 上 下 文 信息 的 自 编码 器 结构 
其 本 的 自 编码 器 只 能 输入 单个 向 量 x 。 因 此 本 文 对 基本 自 
编码 器 进行 了 拓展 ， 并 使 用 了 多 层 的 层 辣 式 自 编码 器 结构 ， 来 


融合 输入 词语 与 其 有 效 上 下 文 信息 。 如 图 3(b)， 首 先 ， 本 文 使 
用 词 嵌 入 的 方法 进行 初始 向 量化 ， 得 到 输入 词 项 与 其 有 效 上 
下 文 信息 初始 向 量 。w 的 初始 向 量 为 x， 而 对 于 有 效 上 下 文 信 
息 ， 对 其 中 有 效 上 下 文 词 项 分 别 进行 初始 向 量化 ， 然 后 取 这 些 
向 量 的 平均 值 作 为 有 效 上 下 文 信息 的 初始 向 量 ， 记 作 “ 。 使 用 
经 典 的 词 租 入 方法 进行 初始 向 量化 ,例如 Word2 Vec!!®), GloVel!7! 
等 ， 这 也 是 很 普遍 的 一 种 做 法 。 初 始 向 量化 之 后 ， 用 “ 学 习 出 
上 下 文 向 量 的 初级 隐 层 表示 hh ， 这 一 步 可 由 基本 自 编码 器 来 生 
R: 然后 将 六 和 < 输入 到 拓展 的 层 车 式 多 层 自 编码 器 中 进行 编 
码 和 重建 。 编 码 阶段 ， 第 k 层 的 自 编码 器 单元 的 输入 为 上 一 个 


Pata] AEE GR Ts = (hota) ， 从 而 完成 了 变 体 词 还 原 的 过 程 。 
3 ”实验 与 分 析 


3.1 实验 数据 集 

本 文 在 Huang 等 人 研究 所 用 的 数据 集团 的 基础 上 进行 了 得 
选 ， 删 去 了 一 些 对 应 关系 错误 的 或 出 现 次 数 太 少 的 变 体 词 ， 新 
增加 了 一 些 变 体 词 ， 并 采集 了 与 这 些 变 体 词 相关 的 微 博 ， 形 成 
一 份 新 的 数据 集 。 这 份 数据 集中 ， 共 包含 1,597,416 条 新 浪 微 
博 消 息 ，25,003 条 Twitter 消息 。 数 据 集 中 共 含 有 593 对 变 体 
词 。 


3.2 参数 设置 
关于 模型 中 的 参数 选取 ， 


部 分 沿用 了 比较 经 典 的 工作 中 
的 选择 ， 另 一 部 分 通过 验证 集 来 选取 效果 最 佳 的 参数 。 在 候选 
标 词 初步 筛选 时 ， 参 考 Sha 的 工作 "9， 取 微 博 的 时 间 窗 口 


自 编 码 器 单元 的 编码 结果 hh，( 如 果 k=1， 则 输入 为 x) 和 上 下 
文 向 量 的 初级 隐 层 h ， 输 出 为 本 层 的 隐 层 及 ， 一 个 4a 维 的 编码 
表示 ， 即 


h.=g(Wh 1 +V,h, +b,) (6) 
其 中 : W,Vi,b RIRI ha 和 六 编码 成 六 的 参数 ;解码 阶段 ， 每 
个 隐 层 将 其 编码 结果 六 分 别 重 建 ， 
上 一 层 的 隐 层 的 编码 及 和 上 下 文 向 量 的 初级 隐 层 h， 即 
hy. = 8(Wh +B.) (7) 


h=g(Vh +b) (8) 
其 中 : WA bi RIK h EEN ha WB, VeA bi RAN h 
重建 为 h 的 参数 。 最 后 由 hh 和 分 别 得 到 最 后 的 重建 结果 对 和 6 。 


自 编码 器 融合 了 输入 词 项 和 它 的 有 效 上 下 文 信息 ， 其 优化 
目标 需要 让 人 和 6 的 重建 误差 都 比较 小 。 因 此 设置 自 编码 器 的 
损失 函数 为 


得 到 对 应 输出 两 个 重建 结果 : 


为 1 天 ，Twitter 的 时 间 窗 口 为 3 天 ， 获 取 各 个 变 体 词 的 候选 
词 项 集合 。 在 使 用 自 编码 器 进行 编码 时 ， 本 文 使 用 Word2Vec 
方法 来 进行 初始 向 量化 ， 初 始 向 量 的 维度 为 100 维 。 
其 余 的 各 个 参数 通过 验证 集 进行 选取 。 随 机 选取 了 
条 微 博 作为 验证 集 来 调整 参数 。 经 过 在 验证 集 上 测试 ， 在 抽取 
有 效 上 下 文 信息 时 ， 取 窗口 wd=20 ， 向 量 数 和 =10 。 在 使 用 自 
编码 器 进行 编码 时 , 编码 器 的 深度 depth =3 ，h 编码 表示 的 维 数 
d=100 ， 取 4=0.5 。 

3.3 结果 分 析 

于 得 到 的 还 原 结果 是 一 个 排序 , 因此 使 用 precise @ k 这 个 
指标 来 评价 变 体 词 还 原 的 效果 。 本 文中 precise @k=N10 ， 对 于 
每 个 变 体 词 m ， 将 它 对 应 的 目标 词 sw 在 本 文 给 出 的 排序 序列 
出 现 的 位 置 记 作 疡 。 WV 在 所 有 的 变 体 词 测 试 样本 中 ， zp; <# 的 
变 体 词 样本 数量 ，Q 为 所 有 变 体 词 测 试 样本 数量 。 若 p=1 则 说 


HAT! 
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录用 稿 游 绩 榨 ， 等 :基于 有 政 上 下 文 信息 的 变 体 词 还 原 方法 
明 得 到 的 候选 目标 词 排 序列 表 的 第 一 位 即 是 真正 的 目标 词 ， 即 表 4 自 编码 器 深度 和 维 数 对 变 体 词 还 原 效果 的 影响 
准确 还 原 了 这 个 变 体 词 o 维 数 S0 100 200 100 100 

实验 与 目前 效果 最 好 的 几 种 方法 进行 了 比较 ， 包 括 文 献 深度 3 3 3 2 5 
【8，9，12】 的 方法 。 本 文中 的 方法 记 做 AE-ECI。 图 4 和 表 
2 展示 了 几 种 方法 在 数据 集 上 还 原 效果 。 从 结果 中 可 以 看 出 ， eee ee ee ee ee 
相 比 之 前 的 方法 ， 本 文 的 方法 在 精确 率 上 有 一 定 的 提升 。 对 于 c) 窗 口 大 小 和 有 效 上 下 文 词 项 数量 。 在 抽取 有 效 上 下 文 信 


pre@1， 本 方法 相 比 效果 最 好 的 Zhang 的 方法 提升 3.41%， 而 


对 于 pre@10， 本 文 的 方法 较 最 好 的 Sha 的 方法 提升 了 息 时 ， 选 择 不 同 的 窗口 大 小 wd 和 上 下 文 词 项 数量 K 的 组 合 
6.43%， 显 著 提高 了 变 体 词 还 原 效果 。 观察 效果 , 结果 如 表 5 所 示 。 可 以 看 出 , 在 正常 的 取 值 范围 内 ， 
ee ere ee 窗口 大 小 和 词 项 数量 对 变 体 词 还 原 的 结果 影响 不 大 。 
a ar ee ee 表 5 窗口 大 小 和 有 效 上 下 文 词 项 数量 对 变 体 词 还 原 效果 的 影响 
Huang et al. (2013) 37.09 59.40 65.95 70.22 wd 5 10 20 50 
Zhang et al. (2015) 38.17 66.38 73.07 78.06 K 10 20 10 20 
Sha et. al. (2017) 36.50 62.50 75.90 84.70 pre@1 40.31 41.88 41.88 41.59 
AE-ECTI 41.88 72.07 82.33 88.89 
4 ”结束 语 
100 本 文 利 用 词 项 间 点 互信 息 来 筛选 有 效 上 下 文 信息 ， 并 使 用 
s 联合 上 下 文 的 自 编码 器 模型 来 融合 词 项 及 其 有 效 上 下 文 信息 ， 
m 生成 联合 编码 ， 来 完成 变 体 词 还 原 任务 。 自 编码 器 是 无 监督 模 
型 ， 可 以 很 好 地 对 大 量 未 标注 数据 进行 训练 ， 减 少 了 人 工 标注 
6” HOEFE. ARE SH ABT I 
3° 发 现 变 体 词 与 目标 词 之 间 共 有 的 、 有 特点 的 上 下 文 ， 从 而 提高 
50 下 Huang et al. (2013) 了 变 体 词 还 原 的 准确 性 。 
一 Zhang et al. (2015) 
40 一 Sha et. al.(2017) (state-of-the-art) 
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